package bw.com.day01;

public class dy1 {
/**
 * 八维保险数据挖掘
 *一：需求分析
 * 保险业务的分类
 *  1.寿险；人寿保险（寿命，生命）
 *  2.非寿险；财产保险
 *  3.理财
 *
 *
 * 保险产品业务流程
 * 产品需求-产品研发-产品定价-产品销售渠道-产品后续服务
 *
 * 数据源
 * 1.理赔数据Oracle数据源
 * 2.精算数据：mysql
 * 3.保单数据：postgresql
 *
 * 问题：Oracle mysql postgreSql 特点，应用场景， 优劣对比
 * 问题：数据采集方案 技术选型
 * sqoop datax maxwell canal Flink-cdc （kettle）
 *集群管理工具：CDH
 * 调度工具：DS（海豚调度），azkaban
 *
 *
 * 保险业务计算工具
 * Excel
 * prophet
 *
 * 项目准备
 * 数据体量
 *  存量数据
 *  增量数据
 *  数据分布：数据类型 数据来源（Oracle mysql postgreSql）数据特点
 *
 *
 * hadoop 集群规划
 * namenode
 * datanode
 * secondneamenode
 *
 *
 * 问题namenode和secondneamenode的关系
 * 问题 双namenode和HA高可用配置
 * 问题：namenode和datanode怎么规划
 * namenode和datanode的功能
 * namenode和datanode资源使用情况
 *
 *
 * 问题
 * HDFS为什么要存储多目录
 * 1。简单来说就是为了，文件的安全和TO性能提升
 * 2.根据HDFS来说
 *   （1）容量管理与分布：HDFS的主要目标就是存储海量数据，使用分布式存储提供高容量，用多个目录来把数据均匀的分到不同的物理节点，避免只存在一个单节点上，从而可以提高可靠性和容量管理的灵活性
 *   （2）关于性能的优化：将数据存储多个目录里面可以增加并行性，提升读写性能，在多目录进行读写请求时，降低单一的瓶颈的影响，提高系统吞吐量和响应的速度
 *   （3）容错与可靠性： 以防节点出出现故障，可以通过多目录复制数据，从而提高了容错能力，但节点故障时，可以通过其他的目录和副本访问数据，保障可靠性和持久性
 *   （4）灵活和管理： 多目录可以根据需求及时调整存储布局和数据分布，提高效率和灵活性
 *3.TO调优
 *   （1）技术优化：
 *      代码优化：通过改进算法，或优化数据
 *      并行计算：利用多线程，分布式计算或gpu加速等技术进行处理，提升计算速度
 *      IO优化：通过减少IO操作，改进文件访问方式或使用内存文件等技术，优化数据读写性能
 *    （2）系统框架调整
 *       缓存优化
 *       负载均衡
 *       扩展性设计
 *     （3）数据处理流程改进
 *        数据压缩与存储
 *        预处理与过滤
 *      （4）性能监控与调整
 *          性能测试与分析
 *          实时监控与反馈
 *hadoop集群HDFS数据均衡
 * 1.数据块大小的设置
 *   HDFS存储数据以固定大小的数据块为单位。通常数据块大小设置为128mb或者256mb通过合理设置数据块大小，可以确保在数据均匀分布的同时，也能够最大化磁盘利用率和数据处理率
 * 2.块的副本数
 *    HDFS会自动在集群的不同节点上复制数据块，以增加数据可靠性和容错能力。通过适当配
 *
 *
 *
 * 7.19号
 * 1.背景和需求
 * 精算：保险产品投入市场前的计算保费
 * 重要性：要有竞争能力
 *        有盈利能力
 *
 *精算是一个循环的过程
 * 精算是对保费定价的直接影响因素
 *
 * 2.业务流程
 * 寿险的定价原则
 * 充足原则 ：经费充足  产品收缴的保费，可以充足的支撑产品的运营，理赔，缴税
 * 合理性原则：费率合理不能过高和过低
 *公平性原则：根据保险责任。赔付金额。风险公平进行定价
 *
 *
 * 寿险的定价假设
 * 精算假设，包括死亡率，利率，费用率。税率。平均保额。分红率。再保险成本及有关
 * 的特别项目等。
 *
 * 死亡率
 * 数据来演与生命表（来自与国家）
 * 年龄。性别。职业、是否吸烟
 *
 * 失效率
 * 保单的持续率=1-失效率
 * 是效率= 失效保单数/总保单数
 *
 * 保单失效的因素
 * 保单年度：对均衡保费保单。最初几年，失效率随着保单年度的增加而迅速降低，5~10年后
 * 失效率降低的速度变得非常缓慢，基本呈现平衡状态
 * 投保年龄（投保时的年龄）：十几到二十岁的投保保单失效率较高。30岁以上的失效率较低
 *
 *
 *
 *
 * 费用的计量单位：保费百分比，每份保单，每千元保额，每次退保，每次死亡给付
 *
 */



/*
用户画像
标签
    属性标签:用户自身属性，不需要经过计算和加工，标签
    业务标签
 */
}
